2025/07/10

什麼是世界模型(world model)?

大語言模型自從 ChatGPT 問世以來,紅了也快 3 年了,過去一年「模型」的進步越來越少,人工智慧的話題慢慢開始轉向應用。而 Google DeepMind 的 Genie 2 、Meta AI 的 V-JEPA I-JEPA 模型則揭示了大語言模型要達成通用人工智慧缺失的一塊拼圖,世界模型。

「世界模型」是一種人工智慧的取向,旨在讓智慧體能夠理解並模擬外部互動世界或環境,從而提升其決策與規劃能力。

世界模型的核心概念包括:

  • 內部模擬現實:它不像傳統機器學習僅將輸入映射到輸出,而是建構一個現實的內部模擬。這讓AI系統能對世界形成豐富的內部理解,類似於人類使用心智模擬來預測結果並做出決策。
  • 理解「為何」:世界模型不僅預測會發生什麼,更重要的是理解「為何」會發生。
  • 從人類思維中汲取靈感:它借鑒了人類自然發展出的世界心智模型,將感官的抽象表徵轉化為對周遭更具體的理解。
  • 超越感知與反應:最終目標是讓AI能夠像人類一樣「夢想」、想像整個世界、預測未來情境並在執行前進行規劃。
  • 基礎世界模型:例如Genie 2,它是一種基礎世界模型,能夠生成無盡多樣的、可動作控制的、可玩的3D環境,用於訓練和評估具身代理。

世界模型通常包含以下核心部分:

1. 表徵學習(Representation Learning)/ 感知模型(Vision Model V):

  • 功能:將高維度感官數據(如圖像、文本或影片)壓縮成有意義的低維度表徵。
  • 實現:通常使用變分自編碼器(VAE)或類似架構,將輸入編碼到潛在空間。I-JEPA使用視覺Transformer (ViT) 作為上下文編碼器來處理可見的上下文區塊。
  • 目的:捕獲環境的基本特徵,同時過濾掉無關的噪音。

2. 預測模型(Prediction Model)/ 記憶模型(Memory Model M):

  • 功能:根據過去和現在的數據預測環境的未來狀態。它還能夠預測其他代理的行為。
  • 實現:通常使用循環神經網路(RNN)或Transformer來建模環境中的時間依賴關係。Genie 2是一個自迴歸潛在擴散模型,利用大型Transformer動態模型來處理潛在幀。I-JEPA的預測器是一個狹窄的ViT。
  • 目的:幫助AI學習動作如何影響下一個狀態,從而預測未來情境。Yann LeCun將其描述為一個「隱藏狀態預測器」(Pred()),用於計算 s(t+1),並使用潛在變數 z(t) 來表徵一系列合理的預測。

3. 規劃與決策模型(Planning and Decision-Making)/ 控制器(Controller C):

  • 功能:利用學到的模型來模擬不同的動作,並選擇最佳的行動方案。
  • 實現:一個輕量級的策略網路,在世界模型創建的模擬環境中運作,從而使訓練更高效。
  • 目的:使AI能夠根據想像的情境進行規劃和採取行動。


世界模型展現了廣泛的能力,並在多個領域具有潛在應用:

  • 環境模擬與生成:模擬虛擬世界,包括採取任何行動的後果。
  • 預測與理解:能夠理解行為背後的潛在原理,而非僅僅觀察到的模式。
  • 決策與規劃:通過深層次理解推理出實現目標的行動序列,實現高效的零樣本決策制定和規劃能力。
  • 通用性與效率:能更好地泛化並以更少的監督進行學習,適用於標記數據稀缺或需要戰略決策的環境。
  • 新興能力:具備「長時記憶」能力,能夠記住不再視野內的環境部分,並在重新可見時準確呈現。能夠生成與行動一致的、多樣的軌跡,模擬反事實經驗以訓練代理。

如果想要更白話一點的介紹,可以看最近 PanSci 的介紹影片



2025/06/30

AI 2027:人工智慧的軍備競賽與科技失控


 AI 2027 是今年稍早出爐的一份研究報告,預測人工智慧在未來十年將帶來巨大影響,甚至超越工業革命。

透過假設性情境,這份報告描繪了從2025年到2027年AI技術的快速發展。報告詳述了AI代理人從最初的「不穩定」發展為「超人類編程者」和「超人類AI研究者」的演變,並探討了AI能力提升所帶來的國家安全隱憂、中美AI軍備競賽以及AI對就業市場的衝擊。

數位時代對這篇報告有完整的介紹,懶得閱讀的話也有可以聽的版本,在這裡就不掠美了。

長壽菸

 

長壽菸是我印象中,小時候幫忙顧雜貨店的時候,賣出最多的品項。

當然,這個印象不見得準確,畢竟大人不會讓小學生去賣那些貴重的、要秤重的、容易打破的東西(像是米、醬油、雞蛋之類的)。而且,當時我拿來塗鴉、學寫字的紙,基本上都是長壽煙的紙盒,所以那個黃色紙張跟紅色線條的搭配,至今深深刻在腦海裡難以遺忘。

早上去超商買咖啡,等待的時候,恰好一位老先生來買菸,我掃了一眼菸櫃,沒有看到熟悉的黃色,所以好奇查了一下,原來是改包裝了。

根據維基百科的說法:

因為產品名稱取為長壽之名,長壽菸甫出產時,其產品外包裝LOGO為「長鬚老人與丹頂鶴」共立之國畫作品,該作品因醫界證實「抽菸有害健康」與台灣禁菸風氣普及之後予以取消。

是的,我不吸煙,所以這些變化我都沒跟上。我只記得當年一包22塊錢的價格,台幣一塊錢由大變小、十塊錢從紙幣變銅板,以及祖父每天晚上拿著算盤結帳。還有倉庫裡的老鼠,店裡養的狗,有人欠款拿來抵押的鱷魚。

研究證明吸煙不能長壽,不過以前每天至少一包煙的祖父,倒是活到了101歲,若不是親友老伴都不在了,我覺得還能多活好幾年。這再次的告訴我們,統計只能告訴我們平均的趨勢,而每個個案都是特例。

2025/06/18

[books] 原始宗教

 

書名:原始宗教

作者:董芳苑

上個禮拜看羅胖的《文明之旅》講到包青天,突然想起這本書。

這本書已經絕版了,高中的時候在唐山書局買過,但後來出國唸書的時候已經捐給圖書館,現在圖書館還找得到。

高中的時候對於「文化人類學」其實是沒什麼概念的,只是覺得作者比較一些原始宗教的田野調查,然後提取當中相似的元素,試圖解釋人類「宗教」的根源,看起來很酷。

之所以會從「包公」跳躍到「宗教」,主要是羅胖說道我們今天認識的包拯,跟史實大相逕庭,其實是後世民間種種不滿與希冀的情緒投射之後,形成的一種類似「信仰」的形象。這在歷史學上屬於「古史辨派」,以顧頡剛錢玄同胡適等為代表,是一個以「疑古辨偽」為論題的史學、經學研究流派。

這種心理需求,讓我想到了原始宗教這本書裡的描述,當然閱讀的年月已久,說不定也是我這麼多年的際遇對記憶造成的扭曲。也順便推一推這集文明之旅:



2025/06/16

都更行不行

 

最近舊居附近有建商來提議都更改建,除了例行的拜訪、問候、詢問意願之外,也租借附近圖書館的場地辦了一場說明會。我自己則是很明快的就跟建商簽了授權申辦的合約,是第一批簽約的三戶之一。

由於跟家人已經搬到新居兩年,舊居目前是讓在附近讀書的親戚居住,而都更即使順利推動,也是在親戚畢業之後才會動工,所以在空間的使用上,我自己沒有什麼特別的顧慮。

大台北地區「新舊交錯」的街景,儼然已經成了一種地區特色,而每個人喜好不同,我倒是不特別反感。但是老舊公寓的安全性(防火防震)以及便利性(供水與電力的規劃),透過改建可以很大程度的獲得提昇,這才是我傾向於支持改建的主要緣由。

當然,建商提出的合建條件在我看來相當優渥,除了舊居用地原本為商業用地,目前建物本來就沒有到達法定的容積率之外,建商在附近已經有兩個建案在進行當中,也讓建商對利益分配的掌握相當精準。

話雖如此,但我對於這件事情成功與否,信心並不是很高。主要是過去10年,親友之間聽聞類似的合建都更機會至少有七、八件,但沒有一件是成功的。失敗的主要原因,通常都不是單一地主跟建商之間的問題,而是地主之間相互比較,導致建商沒辦法提出足以讓所有地主都滿意的條件。其中的故事很多,鄰里之間的恩怨情愁,旁人聽起來極其荒謬的也所在多有,只能說數千年來人性沒什麼改變。

比較有趣的,是首批簽約的三戶,另外兩戶屋主是同一位大姐,他之所以馬上同意,也是因為他目前居住的房子剛好錯過一次都更。

現在雖然已經開始推動,但目前的合約只是授權給建商申辦,建商需要在兩年內取得80%地主的授權書,不然合約自動失效。依照目前的都更條例跟實際案例,雖然「100%地主同意」在規範上並不是絕對必要,但除非有公共危險或其他特殊情況,沒達到100%同意之前,建商是很難取得執照的。

所以,就看看吧。一位朋友說:「搞不好一顆飛彈剛好打到,就直接拆掉重建了。」雖然我是覺得他住機場附近被打到的機率比較高,但世界上的事情,也沒什麼是不可能的。

2025/06/09

[books] The Silicon Shrink:對在心理健康領域使用 AI 的反思


書名:The Silicon Shrink: How Artificial Intelligence Made the World an Asylum (2025-02-04)

作者:Daniel Oberhaus

簡介:

《矽基心理醫師:人工智能如何讓世界變成收容所》 是科學作家 Daniel Oberhaus 的著作,由麻省理工學院出版社於2025年2月4日出版。(Silicon 可以同時指涉「矽谷」跟「積體電路以矽為基礎」,而後者常常用來對比人類與AI,相對於地球上大多生物有機體是「碳基生命」,AI 則是建立在電晶體上的「矽基生命」。)

作者在書中深入的介紹了AI在精神健康領域的應用,並提出警告。Daniel Oberhaus 的核心論點是:由於我們當前對精神疾病的理解極其有限,所以不應該在心理健康跟精神醫療上大規模的依賴AI。

這本書揭示了在心理健康領域使用 AI 的相關風險,包括缺乏實證數據、倫理挑戰、潛在的資料隱私問題,與「精神健康監控經濟」(psychiatric surveillance economy,透過數位足跡來進行監測,甚至操縱情緒跟行為),以及將世界轉變為「數字收容所」的擔憂(利用數位工具存放病患,而非進行有效的治療)。

儘管AI諮詢工具如 WoeBot 和 ChatGPT 因可及性、低成本和去污名化等優勢,已經漸漸普及,但作者強調這些工具的局限性,而且缺乏監管與獨立驗證


雖然書已經出了快半年,但我是上禮拜在 Intelligent Machines 的 podcast 裡聽到作者的專訪,才注意到這本書。主持人提出的很多問題,都是之前募資的時候寫在 Business Plan 裡的「正面說法」,而作者則一一提出反駁。無論同不同意作者的說法,這的確都是該有的反思。